메뉴

#강화 학습

OA
r/OpenAI 31일 전
IMP 6

AI에 갑자기 '고블린'이 등장한 이유

OpenAI가 GPT-5.1 이후 모델들이 대답에 '고블린'과 같은 크리처 단어를 빈번하게 사용했던 원인을 분석한 결과, 'Nerdy(너드)' 성격 커스터마이징 기능의 강화 학습 과정에서 크리처 비유에 과도한 보상(Reward)이 부여된 것으로 드러났습니다. 이는 소비자에게 제공되는 AI의 페르소나와 미세한 보상 신호가 모델의 전반적인 동작과 언어 습관에 예기치 않은 방식으로 영향을 미칠 수 있음을 보여주는 중요한 사례입니다.

GPT-5 모델 행동 강화 학습
SG
r/singularity 47일 전
IMP 8

엔비디아 "AI 도입으로 GPU 설계 10개월 업무, 하루 만에 처리"

엔비디아는 칩 설계 과정 전반에 AI를 도입하여 설계 시간을 획기적으로 단축했다고 밝혔습니다. 특히 8명의 엔지니어가 10개월 걸리던 표준 셀 라이브러리 포팅 작업을 단일 GPU로 하룻밤 만에 끝낼 수 있게 되었습니다. 그러나 윌리엄 달리 수석 과학자는 완전한 무인 칩 설계에는 아직 멀었으며, 현재는 AI를 보조 및 최적화 도구로 활용해 인간 설계자 이상의 성능을 이끌어내는 단계라고 설명했습니다.

엔비디아 칩 설계 AI 자동화
TD
The Decoder 51일 전
IMP 8

LLM, 코딩·수학은 완벽하지만 단순한 질문엔 말문 막히는 이유

안드레이 카르파시(Andrej Karpathy)는 최신 AI 모델이 복잡한 코딩과 수학 문제를 완벽히 해결하면서도 단순한 일상적인 질문에는 엉뚱한 대답을 하는 현상에 대해 설명했습니다. 그 이유는 강화 학습을 통해 결과를 명확하게 검증할 수 있는 분야(코딩, 수학)에서는 AI의 발전이 압도적으로 빠르기 때문입니다. 이는 검증 가능성(Verifiability)이 향후 AI의 발전 속도와 자동화의 범위를 결정하는 핵심 요소임을 시사합니다.

인공지능 안드레이 카르파시 강화 학습